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摘 ”要 : 认 知 建 模 近 年 来 在 科学 心理 学 获得 广泛 应 用 ， 而 模型 比较 是 认 知 建 模 中 关键 的 一 
环 : 研究 者 需要 通过 模型 比较 来 选择 出 最 优 模型 ， 才 能 进行 后 续 的 假设 检验 或 潜 变 量 推断 。 
模型 比较 不 仅 要 考虑 模型 对 数据 的 拟 合 〈 平 衡 过 拟 合 与 从 拟 合 )， 也 需要 考虑 参数 数据 和 数 
学 形式 的 复杂 度 。 然 而 ， 模 型 比较 指标 众多 ， 纷 繁复 杂 。 将 认 知 建 模 常 用 的 模型 比较 的 指 
标 分 为 三 大 类 ， 并 介绍 了 其 计算 方法 及 优 务 ， 包 括 拟 合 优 度 指标 包括 平均 平方 误差 、 决 
定 系数 、RUC 曲线 等 )、 基 于 交叉 验证 的 指标 包括 AIC. DIC 等 ) 和 基于 边际 似 然 的 指 
标 。 结 合 正 交 Go /No-Go 范式 下 的 数据 ， 展 示 各 指标 在 R 语言 中 如 何 实现 。 在 此 基础 上 ， 
探讨 各 指标 的 适用 情境 ， 介 绍 模型 平均 等 模型 比较 的 新 思路 。 
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最 近 的 二 十 年 来 ， 基 于 计算 模型 (Computational models) 对 行为 数据 进行 认 知 建 模 


(Cognitive modeling) 的 研究 越 来 越 多 受到 研究 者 的 关注 。 例 如 ， 在 感知 觉 决 策 Perceptual 


decision-making) 领 域 中 的 贝 叶 斯 感知 觉 模型 (Bayesian perception model)(Kording & Wolpert, 


2006) 和 漂移 扩散 模型 (Drift diffusion model)(Forstmann et al., 2016; Ratcliff et al., 2016) TE 1. 


知 神经 科学 得 到 了 广泛 的 应 用 。 类 似 的 ， 强 化 学 习 模 型 (Reinforcement learning model) 在 价 


值 决策 (Value-based decision-making) 研 究 中 日 益 成 为 主流 ， 其 通过 模型 估计 出 的 隐 变 量 “ 预 


期 误差 (Prediction error)” 可 以 有 效 地 预测 学 习 过 程 中 多 巴 胺 神经 元 (dopaminergic neuron) 的 活 


动 (Schultz et al., 1997; Steinberg et al., 2013)。 计 算 模 型 也 是 计算 精神 病 学 (Computational 
psychiatry) 这 一 新 兴 交 叉 领 域 的 基础 (Geng et al., 2022; Huys et al., 2016; Montague et al., 2012; 
区 健 新 , 2020)， 增 进 理解 精神 疾病 人 群 的 认 知 加 工 上 的 缺陷 以 提高 对 精神 疾病 诊断 和 分 类 
的 准确 度 ， 提 供 精准 治疗 (Pedersen et al., 2021). 


认 知 模型 的 步骤 大 致 包括 模拟 数据 (Simulatiom)、 参 数 估计 (Parameter estimation), $A! 


比较 (Model comparisom 和 隐 变 量 推断 (Latent variable inference)(Wilson & Collins, 2019) 等 步 
又 。 具 体 而 言 ， 研 究 者 根据 不 同 理论 提出 相应 的 计算 模型 进行 模拟 ， 并 设计 实验 收集 数据 ， 
使 用 各 个 计算 模型 拟 合 数据 ， 通 过 模型 比较 来 选 出 最 优 模型 ， 最 后 根据 最 优 模型 进一步 分 
析 数 据 ， 将 模型 的 中 的 隐 变 量 与 神经 数据 结合 进行 推断 。 

模型 比较 是 认 知 建 模 里 至 关 重 要 的 一 环 ， 它 不 仅 在 认 知 建 模 中 使 用 ， 也 是 各 种 涉及 到 
计算 模型 的 场景 中 必 不 可 少 的 步骤 。 然 而， 心理 学 / 认 知 科学 等 领域 研究 者 对 于 模型 比较 的 
过 程 较为 陌生 ， 面 对 种 类 繁多 的 模型 比较 指标 时 ， 常 感到 困惑 。 此 外 ， 当 前 文献 中 也 缺乏 
对 模型 比较 的 诸多 方法 进行 系统 梳理 。 有 鉴于 此 ， 本 文 梳理 模型 比较 的 原则 和 各 个 方法 ， 
帮助 读者 理解 当前 模型 比较 背后 的 原理 和 适用 情境 ， 推 动 更 好 地 运用 认 知 建 模 。 虽 然 本 文 
的 重点 放 在 实验 心理 学 里 的 认 知 建 模 当中 ， 但 是 介绍 的 指标 也 可 以 应 用 于 其 他 心理 学 常见 
的 统计 模型 ， 例 如 分 层 线 性 回归 、 结 构 方程 模型 等 等 。 

我 们 将 首先 介绍 模型 比较 的 基本 原则 ， 随 后 结合 案例 系统 地 介绍 常见 模型 比较 指标 的 
原理 和 优 缺 点 ， 最 后 ， 从 实际 应 用 的 角度 ， 总 结 各 个 指标 的 优 劣 和 使 用 注意 事项 。 


1 模型 比较 的 基本 原则 


对 于 研究 者 而 言 ， 一 个 好 的 模型 必须 要 具备 如 下 两 点 特质 。 第 一 ， 它 能 够 很 好 地 解释 


或 者 拟 合 当前 样本 数据 的 模型 。 第 二 ， 模 型 要 具有 汉化 能 力 ， 即 能 够 对 于 当前 数据 之 外 的 
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数据 同样 提供 较 好 的 解释 〈 即 预测 能 力 )。 如 果 某 个 模型 无 法 准确 地 解释 当前 样本 数据 ， 则 
可 认为 这 个 模型 是 只 拟 合 的 (Underfitting)。 如 果 某 个 模型 能 够 非常 好 地 解释 当前 样本 数据 
但 无 法 解释 样本 外 的 数据 时 ， 则 认为 这 个 模型 过 拟 合 的 (Overfitting)(Friedman et al., 2001). 
研究 者 通常 使 用 泛 化 误差 (Generalization error)， 即 模型 预测 和 真实 数据 的 差异 来 衡量 
模型 的 泛 化 能 力 。 泛 化 误差 可 以 被 分 为 方差 (Variance)、 偏 差 (Bias) 和 误差 项 (Irreducible 
error)。 偏 差 是 模型 预测 和 真实 数据 之 间 的 差异 ， 方 差 表 示 模 型 在 不 同 训练 数据 上 预测 结果 
的 变化 程度 。 模 型 难以 同时 达到 小 的 偏差 和 方差 ， 概 因 样 本 数据 中 存在 噪音 ， 过 于 复杂 的 
模型 虽然 对 样本 数据 拟 合 很 好 (此 时 的 偏差 很 小 )， 却 会 将 过 多 噪音 考虑 在 内 ， 令 模型 的 预 
测 极为 不 稳定 (方差 很 大 )。 因 此 ， 随 着 模型 的 复杂 度 的 增 大 ， 模 型 的 偏差 会 逐渐 减 小 ， 
差 则 会 增 大 ， 这 被 称 作 偏差 -方差 权衡 (Bias-variance trade-off)。 偏 差 大 的 模型 欠 拟 合 ， 而 方 
差 大 的 模型 则 过 拟 合 (Friedman et al., 2001)。 选 择 模 型 是 一 个 权衡 模型 的 偏差 和 方差 ， 从 而 
使 得 模型 的 泛 化 误差 最 小 的 过 程 。 
虽然 模型 的 复杂 度 对 其 泛 化 能 力 有 着 重要 作用 ， 但 其 也 受到 诸多 因素 的 影响 。Myung 
and Pitt (1997) 总 结 三 种 影响 模型 复杂 度 的 因素 。 第 一 是 模型 的 参数 数量 。 一 般 情 况 下 模型 
的 参数 越 多 复杂 度 越 高 。 第 二 是 模型 的 数学 形式 。 例 如 ， 非 线性 的 模型 要 比 线性 模型 更 复 
杂 。 第 三 是 模型 的 参数 空间 范围 。 更 大 的 参数 空间 范围 说 明 模型 拥有 更 多 的 自由 度 ， 也 意 
味 着 模型 更 复杂 。 
根据 模型 比较 指标 关注 点 和 原理 的 差异 ， 可 将 它们 分 为 三 类 。 第 一 类 为 模型 拟 合 优 度 
(Goodness of fib， 这 一 类 指标 并 没有 考虑 模型 的 复杂 度 ， 只 是 单纯 地 衡量 模型 对 于 当前 样 
FI 本 数据 的 拟 合 程度 。 第 二 类 是 交叉 验证 (Cross validatiom) 以 及 近似 交叉 验证 的 指标 ， 这 类 指 
标 关 注 于 模型 的 泛 化 能 力 (Generalization ability)， 即 基于 当前 样本 数据 拟 合 后 的 模型 对 于 样 
本 外 数据 预测 准确 度 (Out of sample prediction accuracy)。 第 三 类 是 基于 边际 似 然 的 指标 1 
P(yIM)， 其 中 y 表 示 观 测 数据 ，MM 表 示 模 型 。 边 际 似 然 着 重 于 选择 出 候选 模型 里 可 能 存在 
的 “真实 模型 ”后 二 者 都 具有 在 复杂 度 和 拟 合 优 度 之 间 进 行 权 衡 的 特质 。 不 同 的 模型 比较 
指标 各 有 其 优 缺 点 ， 不 存在 某 一 个 指标 全 面 优 于 他 者 。 因 此 ， 研 究 者 需要 根据 实际 情况 选 
择 合适 的 指标 。 以 下 将 通过 一 个 数据 作为 示例 ， 分 别 介绍 这 三 大 类 指标 。 


=, 


2 示例 数据 


在 贝 叶 斯 统计 中 ， 边 际 似 然 (Marsginal likelihood) 也 称 为 称 模型 证 据 (Model evidence). 
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本 文 将 结合 正 交 Go /No Go 范式 的 示例 实验 来 介绍 各 模型 指标 的 计算 方法 及 特点 
(Cavanagh et al., 2013; Dorfman & Gershman, 2019; Guitart-Masip et al., 2012)。 示 例 所 用 数据 
为 使 用 下 文 介绍 的 认 知 模型 模拟 产生 。 模 拟 数 据 和 后 续 模型 比较 指标 的 计算 使 用 了 R 语言 ， 


具体 代码 见 在 线材 料 : https://github.com/zaizibai/model_comparison。 


正 交 Go/No Go 范式 常 被 用 于 研究 巴 浦 洛 夫 学 习 和 工具 性 学 习 之 间 的 关系 。 该 范式 是 


2 x 2 的 被 试 内 实验 设计 ， 其 中 第 一 个 变量 是 反应 刺激 : Go 和 No Go; 第 二 个 变量 是 行为 
反应 后 的 反馈 类 型 : 获得 奖励 和 避免 惩罚 。 反 应 刺激 和 反馈 类 型 两 个 条 件 结合 起 来 共 
四 种 实验 条 


奖赏 
DAs 


No Go- 避 免 惩 罚 。 


避免 征 


EW” RETF, Et 


件 (在 该 范式 中 被 称 作 提示 符号 cue): Go- 获 得 奖赏 、Go- 避 免 惩 罚 ，No Go- 获 得 


值得 注意 的 是 ， 每 个 条 件 下 的 正 负 反馈 都 是 概率 的 。 例 如 在 “Go- 
角 反 应 ( 即 Go) 有 80% 概 率 避 免 人 惩罚 ， 但 仍 有 20% 概 率 被 惩罚 ， 而 错 


误 反 应 ( 即 No-Go) WA 80% 概 率 被 惩罚 ，20% 概 率 避 免 惩罚 。 实 验 开始 时 ， 被 试 并 不 知 
类 条 件 下 正确 的 反应 ， 需 要 根据 反馈 不 断 地 来 学 习 。 根 据 学 习 理论 ， 在 该 范式 里 当 反 
得 奖赏 时 ， 人 们 易 有 Go 反应 ; 当 反 馈 是 避免 惩罚 时 ， 则 更 容易 产生 No Go 反应 
(Dayan et al., 2006). 

研究 者 通常 使 用 简单 的 强化 学 习 模型 对 该 范式 下 的 数据 进行 建 模 。 该 模型 认为 人 类 决 
策 受 两 种 学 习 因 素 影响 : 巴 浦 洛 夫 学 习 和 工具 性 学 习 。 工 具 性 学 习 源 自 斯 金 纳 的 工具 性 学 


习 理 论 ， 是 刺激 -反应 -结果 (Stimulus-Response-Outcome, SRO) 的 联结 ， 而 巴 浦 洛 夫 学 习 则 是 


道 每 


馈 是 获 


刺激 -结果 的 联结 ， 与 反应 无 关 。 上 其 体 而 言 ， 选 择 Go 或 No Go 反应 的 决策 权重 的 公式 如 下 : 


w=b+Q+rxV (1) 


这 其 中 b 代 表 个 体 对 Go 或 No Go 反应 的 天 然 的 偏好 ，Q 是 工具 性 学 习 的 决策 变量 ， 而 


V yi zi Eu 


有 洛 夫 效应 的 决策 变量 ，XA 是 它 的 度量 参数 。 关 于 该 模型 的 具体 细节 ， 可 以 详 见 


Betts et al. (2020) 或 Swart et al. (2017)。 


本 文中 我 们 将 使 用 结合 了 巴 浦 洛 夫 效 应 和 工具 性 学 习 的 模型 模拟 10 个 被 试 的 数据 ， 并 


拟 合 两 种 模型 ， 包 括 模拟 数据 的 真实 模型 (模型 一 )， 以 及 没有 巴 浦 洛 夫 效应 而 只 有 工具 性 
学 习 的 模型 (模型 二 )。 


具体 的 拟 合 中 ， 将 使 用 分 层 贝 叶 斯 模型 (Hierarchical Bayesian 


estimation, HBE) 和 最 大 化 后 验 概 率 法 (Maximum a posterior estimation, MAP)。 在 接 下 来 的 部 
， 本 文 将 结合 案例 模型 和 数据 ， 具 体 介 绍 一 些 指标 的 计算 方式 。 
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0 10 30 40 
Trial 
—— Go to win reward — No Go to win reward 
一 一 Go to avoid punishment 一 一 No Go to avoid punishment 


图 1. 案例 Trial-by-trial 的 行为 数据 ， 由 模型 一 生成 。 图 中 横 坐 标 是 试 次 数量 ， 纵 坐标 是 选择 Go 反应 的 比例 。 四 种 颜色 代表 了 四 种 cue。 随 着 
试 次 数量 的 增 大 ， 个 体 行为 逐渐 变 得 稳定 ， 这 体现 了 工具 性 学 习 的 作用 。 而 获得 奖赏 和 避免 惩罚 cue 下 ， 个 体 Go 反应 的 比例 的 不 对 称 性 则 体 
岗 了 巴 浦 洛 夫 效应 。 具 体 而 言 ， 个 体 更 易 有 Go 反应 去 获得 奖赏 ， 但 是 却 更 多 地 有 No Go 反应 去 避免 惩罚 。 


go to win go to avoid losing no-go to win no-go to avoid losing 


1000 ms 
250 - 3500ms 
1500ms 
1000ms 
1000ms 
ITI 750 -1500ms 


2.， 案 例 的 实验 设计 ， 引 自 Betts et al. (2020)。 单 个 试 次 的 流程 如 下 ， 被 试 首先 会 看 到 一 个 cue， 在 cue 消失 后 需 进行 Go 或 者 No Go 反应， 反应 
毕 屏幕 会 呈现 反应 结果 。 在 此 任务 里 ， 被 试 需要 去 主动 学 习 不 同 的 cue 的 正确 反应 ， 以 及 正确 结果 是 避免 惩罚 还 是 获得 奖赏 。 


at 
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平均 平方 误差 
AIC 


对 数 似 然 函 数 
ROC 曲 线 
后 验 预测 检查 


| 拟 合 优 度 指 标 


PSIS-Loo-CV 


BIC 


近似 计算 方法 


Savage-Dickey density ratio 
重要 性 采样 


"S 


3， 认 知 建 模 里 三 种 常见 的 模型 比较 指标 ， 分 别 包括 拟 合 优 度 指标 、 基 于 交叉 验证 的 指标 和 基于 边际 似 
然 的 指标 。 


3 拟 合 优 度 指标 


模型 的 拟 合 优 度 (Goodness of fb 主要 用 于 衡量 模型 在 实验 数据 上 的 预测 程度 或 拟 合 程 
度 。 昌 然 拟 合 优 度 指标 没有 考虑 到 由 于 模型 的 复杂 度 增 大 而 带 来 的 过 拟 合 的 影响 ， 但 它 
认 知 建 模 中 的 作用 也 不 可 忽视 。 首 先 ， 拟 合 优 度 指标 可 以 用 于 探究 模型 的 绝对 性 能 ， 其 次 ， 
拟 合 优 度 的 指标 可 以 在 模型 的 复杂 度 相 差 不 大 以 及 存在 嵌 套 模型 的 情况 下 被 用 于 比较 各 个 
模型 。 在 认 知 建 模 领域 里 常用 的 拟 合 优 度 指 标 包括 如 下 : 平方 误差 (Mean squared error), W 
定 系 数 (Coefficient of determination, r?/pseudo 7r?)、 对 数 似 然 函数 (Log likelihood function), 


B 


接收 者 操作 特征 曲线 (Receiver operator characteristic, ROC)All Ja J Fi W T5 £t (Posterior 
predictive check)。 需 要 注意 的 是 ，MSE、7? 不 适用 于 比较 本 示例 数据 中 的 两 个 模型 ， 因 此 
将 仅 做 文字 介绍 。 
3.1 平均 平方 误差 

平均 平方 误差 ， 简 称 为 MSE(Mean squared errorm)， 又 称 均 方 偏差 (Mean squared deviation, 
MSD)， 是 评估 一 般 线 性 回归 的 常用 指标 ， 其 计算 公式 为 : 


n 
1 
MSE =—) (4-90? (2) 
i=1 
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其 中 ，yi; 是 样本 的 数据 点 ， 人 入 是 模型 的 预测 值 。MSE 通常 应 用 于 建 模 数据 是 连续 变量 


的 回归 预测 问题 中 。MSE 并 不 适用 于 如 本 文案 例 一 样 的 分 类 问题 。 


对 MSE 开 根 号 可 得 到 均 方 根 误差 (Root mean square deviation, RMSD); 给 MSE 乘 以 数 
据点 数量 ， 可 得 到 残 差 平 方 和 (Residual sum of squares, RSS)。 当 模型 使 用 高 斯 分 布 时 ，RSS 
可 用 于 髓 套 模型 的 F 检验 。 鸯 套 模型 指 的 是 存在 一 个 完整 模型 和 一 个 简单 模型 。 简 单 模型 
是 完整 模型 的 特例 ， 相 比 于 完整 模型 ， 简 单 模型 缺少 某 个 参数 或 者 该 参数 被 固定 到 一 个 值 。 

五 值 公式 为 : 


+I 


RSS Reduced -PSS Full 
_ Ap 
F I RSSpull (3) 


dF pull 
上 式 中 RSSReqwceq 和 和 RSSgun 分 别 为 简单 模型 和 完整 模型 的 RSS，Ap 为 二 者 的 自由 参数 


之 差 ，dFpn 为 完整 模型 的 自由 度 (Hair et al., 2010)。 除 此 之 外 ， 高 斯 分 布 的 RSS 还 可 以 在 


计算 AIC 和 BIC 时 替代 对 数 似 然 函 数 (Friedman et al., 2001; Lebreton et al., 2019)。 更 多 关于 
AIC 和 BIC 的 内 容 请 分 别 参考 下 文 4.1 £I 5.1 5. 


3.2 决定 系数 


决定 系数 7? 常 被 用 于 衡量 线性 回归 模型 的 拟 合 优 度 ，r2 的 值 介 于 0 到 1 之 间 ， 反 映 了 
因 变 量 的 变异 能 被 自 变 量 所 解释 的 占 比 。r2 越 接近 于 1， 模 型 对 数据 的 拟 合 效果 越 好 。 其 
计算 公式 为 : 


r=1-— (4) 
TSS(Total sum of squares) 为 总 平方 和 和 ，RSS(Residual sum of squares) 与 为 残 差 平方 和 ， 
他 们 的 计算 公式 为 : 


TSS = X(y; - 7)? (5) 


RSS = 5 (i - 50? (6) 


与 MSE 一 样 ， 决 定 系数 r? 常 应 用 于 建 模 变量 为 连续 变量 的 回归 预测 问题 ， 并 不 适用 于 
本 文案 例 中 建 模 数据 为 离散 分 布 的 分 类 问题 。 

为 了 让 7? 也 适用 于 离散 分 布 的 情况 ， 研 究 者 提出 使 用 pseudo r?。pseudo rz 有 多 种 计 
算 公 式 ， 本 文 以 McFadden (1984) 提 出 的 一 种 为 例 进行 介绍 ， 因 为 它 较为 符合 Kvalseth (1985) 
提出 的 八 种 决定 系数 应 有 的 性 质 (Menard, 2000)。 


其 公式 : 


Y LLF rut model 
seudo r -l-SILES " 
D McFadden YX LL Fwull model l 


È LL Feytt moade IRE WI BULK RZ A; Y LL Fry moae I TIRA (TEW E E 
数 为 1 选项 数量 的 多 项 式 模型 ) 的 对 数 似 然 函数 之 和 (Daw, 2011; McFadden, 1984)。 在 示例 数 
据 中 ， 模 型 一 的 pseudo 7? 为 0.814， 模 型 二 的 pseudo 7* 则 是 0.803。 这 说 明 这 两 个 模型 对 


数据 的 绝对 拟 合 程度 均 良 好 ， 但 模型 一 比 模型 二 更 好 。 


3.3 WER BH 

对 数 似 然 函 数 是 给 定 了 参数 的 情况 下 ， 模 型 预测 当前 数据 的 概率 ， 反 映 模型 与 实际 数 
据 的 匹配 程度 。 通 常 在 极 大 似 然 法 估计 (Maximal likelihood estimation, MLE) 里 使 用 ， 其 公式 
为 : 


log L(6ly) = p(y|0) (8) 

不 同 任务 的 对 数 似 然 函 数 不 尽 相同 。 当 建 模 数据 是 选项 数据 时 ， 对 数 似 然 函 数 通常 是 
伯 努 利 分 布 或 者 多 项 式 分 布 ， 而 建 模 数据 是 反应 时 或 者 肌 电 等 ， 对 数 似 然 函 数 则 一 般 为 高 
斯 分 布 (Ballard et al., 2019; Ikink et al., 2019; Li et al., 2011). 

在 认 知 建 模 的 模型 比较 中 ， 对 数 似 然 函数 通常 有 两 种 用 途 。 第 一 ， 使 用 平均 对 数 似 然 
函数 来 探究 模型 绝对 的 表现 (Absolute performance)。 本 文 的 示例 为 二 选项 任务 (Binary choice 
task)， 个 体 随机 选择 的 概率 为 50%， 其 对 数 为 -0.693。 因 此 当 平 均 对 数 似 然 函数 大 于 -0.693 
时 ， 模 型 的 表现 要 优 于 随机 水 平 (Chance level). 

第 二 ， 对 数 似 然 可 用 于 计算 似 然 比 检验 (Likelihood-ratio test), PEWTER e pi 79 27 [8] FE 
表现 差异 是 否 显著 。 似 然 比 检验 的 渐 近 分 布 为 卡 方 分 布 ， 其 自由 度 正比 于 两 个 模型 中 自由 
参数 数量 之 差 (Casella & Berger, 2002; Wilks, 1938)。 

似 然 比 检验 的 公式 为 : 

LRT = —2 X (log Lreaucea — log Leu) (9) 

RP L yyy Fe TERA AR ERG, Lreducea NÆ E ERES Be A HAY BL PR. H 

体 计算 时 ， 我 们 需要 将 所 有 被 试 的 全 部 试 次 的 似 然 函 数 相 加 ， 以 此 计算 LRT， 并 通过 检查 

卡 方 分 布 判断 模型 差异 是 否 显 著 。 在 本 文 的 案例 中 ， 模 型 一 和 模型 二 的 自由 参数 数量 之 差 

为 2， 再 乘 上 被 试 数量 10， 因 此 ， 可 用 自由 度 为 20 的 卡 方 分 布 来 进行 似 然 比 检验 。 模 型 一 
和 模型 二 的 似 然 比 检验 的 p 值 为 1.81e-33 < 0.001， 说 明 二 者 的 拟 合 差异 显著 


3.4 ROC 曲线 


ROC 曲线 是 一 种 用 于 评估 二 分 类 模型 的 方法 ， 在 信号 检测 论 有 着 广泛 的 应 用 。ROC 曲 
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2d ^ RTI oP FS BM ELE TAA. sc f YEA TA] J De BLP iti 44 48 (True Positive Rate, TPR) 


与 假 阳 性 率 (False Positive Rate，FPR) 之 间 的 关系 (Bishop, 2006). fE ROC 曲线 里 ， 其 横 坐 标 


为 假 阳性 率 ， 纵 坐标 为 击 中 率 。 


在 ROC 曲线 里 ，TPR 是 指正 确 分 类 的 正 例 数 与 所 有 实际 正 例 数 之 比 。FPR 则 是 指 错误 
分 类 为 正 例 的 负 例 数 与 所 有 实际 负 例 数 之 比 。 这 里 的 正 例 即 正确 的 反应 ， 也 即 信号 检测 论 
的 信号 ， 而 负 例 则 为 错误 反应 ， 信 号 检测 论 中 的 噪音 。 为 了 绘制 ROC 曲线 ， 我 们 需要 变化 
反应 阀 值 ， 计 算 不 同 反应 阔 值 下 的 假 阳 率 和 击 中 率 。 


ROC 曲线 展示 了 在 不 同 反 应 阔 值 下 模型 的 性 能 。 而 AUC(Aera under curve) 则 衡量 了 
ROC 曲线 下 的 面积 。AUC 的 值 介 于 0 和 1 之 间 ， 表 示 分 类 器 在 区 分 正 例 和 负 例 方面 的 能 
Jj. AUCH 0.5 时 模型 的 预测 是 随机 的 。 而 AUC 的 值 越 接近 1， 表 示 分 类 器 性 能 越 好 。 一 


般 情 况 下 ， 当 AUC 大 于 0.8 时 ， 我 们 可 以 认为 模型 的 ; 


y 


HE 


能 表现 较 佳 。 在 示例 数据 中 ， 模 型 


一 的 AUC 面积 为 0.956， 模 型 2 的 AUC 面积 为 0.951， 二 者 的 AUC 面积 均 较 大 《〈 见 图 4)。 
ROC 曲线 在 正 负 样 本 大 小 均衡 时 表现 良好 ， 但 是 当 正 负 样 本 差异 较 大 时 ，ROC 的 结 

误差 极 大 。 当 样本 不 均衡 时 ， 查 准 率 - 查 全 率 曲 线 (Precision-recall curve, PRC) 是 更 适合 的 指 

标 (Davis & Goadrich, 2006)。 并 且 ，ROC 曲线 仅 限于 二 分 类 问题 ， 在 多 分 类 问题 时 ， 绘 制 


ROC 曲线 需要 把 多 分 类 问题 简化 为 二 分 类 问题 (一 对 多 比较 或 者 遍历 所 有 的 两 两 比较 等 


等 )(Allwein et al., 2001). 


1.00 Model 
一 1 
一 2 
0.75 
a 
A 0.504 
= 
0.254 
0.004 
0.00 0.25 0.50 0.75 1.00 
图 4， 案 例 中 模型 1 和 模型 2 的 ROC 曲线 


3.5 后 验 预测 检查 


后 验 预 测 检查 Cposterior predictive check) 通常 并 不 属于 模型 拟 合 优 度 ， 但 考虑 到 该 方 
法 也 可 以 用 于 衡量 模型 对 于 原始 数据 的 拟 合 程度 ， 因 此 本 文 将 其 视 为 模型 拟 合 优 度 的 指标 
中 的 一 

后 验 预测 检验 属于 模型 验证 的 方法 (Model validation)， 检 查 了 模型 对 样本 数据 的 重 现 能 


力 (Palminteri et al., 2017; Steingroever et al., 2014; Vandekerckhove et al., 2011)。 其 公式 为 : 


p(yYrep|y, M) = f Prep |8,M)p(Oly, M) de (10) 


其 中 M 是 模型 ，y 是 样本 数据 ，Yep 是 模型 重 现 的 样本 数据 (Gelman， Carlin, et al., 2013; 


Zhang et al., 2020)。 
在 实际 应 用 中 ， 后 验 预测 检查 的 流程 如 下 : 在 拟 合 完 模型 并 得 到 拟 合 参数 后 ， 将 拟 合 
的 参数 代入 到 模型 之 中 ， 生 成 模拟 数据 。 然 后 通过 绘图 或 者 计算 一 些 统计 指标 (如 MSE 等 ) 


来 比较 模型 模拟 的 数据 和 真实 数据 的 差异 ， 以 评估 模型 的 拟 合 效果 和 预测 能 力 (van de 
Schoot et al., 2021). 

后 验 预测 检查 能 避免 只 使 用 模型 比较 指标 时 可 能 的 问题 。 例 如 ，Palminteri et al. (2017) 
通过 一 个 模拟 研究 证 明 ， 假 设 有 两 个 模型 A 与 B， 即 使 在 多 数 情况 下 ， 模 型 A 的 模型 选择 
的 指标 均 优 于 模型 B， 但 是 模型 A 却 有 可 能 无 法 模拟 出 数据 的 总 体 变化 趋势 ， 而 B 模型 却 
可 以 。 因 此 ， 除 过 传统 常见 的 拟 合 优 度 指标 之 外 ， 模 拟 数据 对 评估 模型 来 说 是 至 关 重 要 的 。 

尽管 后 验 预测 检查 是 贝 叶 斯 统计 中 的 概念 ， 但 并 不 代表 它 仅 适 用 于 贝 叶 斯 参数 估计 。 
对 于 非 贝 叶 斯 参数 估计 的 模型 ， 我 们 只 能 获得 参数 的 点 估计 ， 但 是 我 们 仍 可 以 使 用 点 估计 
的 参数 模拟 数据 ， 再 将 其 与 真实 数据 进行 对 比 。 虽 然 在 过 去 的 计算 模型 研究 中 ， 后 验 预 测 
检查 并 没有 得 到 广泛 应 用 ， 但 在 当今 越 来 越 多 的 研究 中 ， 研 究 人 员 选 择 使 用 后 验 预测 检查 
来 评估 模型 。 可 以 预见 ， 在 未 来 的 研究 中 ， 后 验 预 测 检查 有 可 能 成 为 必 不 可 少 的 步骤 之 一 


(Zhang et al., 2020). 


长 


4 ”交叉 验证 类 的 指标 


交叉 验证 是 机 器 学 习 领 域 中 用 于 检验 模型 对 于 样本 外 数据 的 泛 化 能 力 的 基本 方法 。 然 
而 ， 在 心理 学 领域 中 ， 直 到 最 近 才 开始 重视 这 一 方法 (Daniel etal., 2020; Verstynen & Kording, 
2023)。 交 叉 验 证 的 流程 包括 ， 首 先 将 数据 集 分 为 训练 集 (Training set) 和 验证 集 (Validation 
set); 然后 在 训练 集 上 拟 合 不 同 的 模型 ， 最 后 在 验证 集 上 对 比 不 同 模型 的 预测 准确 度 ， 从 而 


选择 出 最 优 模型 (Friedman et al., 2001; Geisser & Eddy, 1979). 
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交叉 验证 主要 有 三 个 优点 。 第 一 ， 与 许多 建立 在 假设 和 推导 上 的 指标 相 比 ， 交 又 验证 
利用 计算 机 的 算 力 替 代 复 杂 的 推导 ， 使 得 它 极 为 简洁 和 直观 。 第 二 ， 交 叉 验 证 在 权衡 模型 
拟 合 优 度 和 复杂 度 时 自然 地 将 三 种 模型 复杂 度 因素 (参数 数量 、 参 数 空间 范围 和 数学 形式 ) 
考虑 在 内 ， 而 这 是 许多 指标 所 不 具备 的 。 第 三 ， 交 叉 验 证 不 仅 可 以 作为 模型 选择 的 相对 指 


标 ， 还 可 结合 前 文 提 到 的 MSE、AUC 等 统计 指标 ， 评 估 模 型 数据 分 布 的 拟 合 能 力 。 


常见 的 交叉 验证 方法 包括 K 折 交 又 验 证 (K-fold cross-validation) 和 留 一 法 交叉 验证 
(Leave-one-out cross-validation) 等 。K 折 交 叉 验 证 把 数据 分 成 K 分， 其 中 K-1 份 数 据 作为 训 
练 集 ， 剩 余 一 份 数据 作 验 证 集 。 留 一 法 交叉 验证 则 是 K 折 交 叉 验 证 的 特例 ， 它 从 数据 集中 
每 次 取出 一 个 样本 作为 测试 集 ， 剩 余 样 本 作为 训练 集 。 例 如 ， 在 ON 个 样本 点 的 数据 集 ，N- 
1 个 数据 样本 将 作为 训练 集 ， 而 剩 下 的 一 个 样本 是 验证 集 ， 即 K = n。 留 一 法 交叉 验证 需要 
进行 N 次 评估 才能 完成 对 所 有 数据 样本 的 预测 ， 因 此 它 的 计算 量 较 大 。 当 样本 数据 噪音 较 


[si 
= 


LO 少 的 情况 下 ， 留 一 法 能 做 到 至 少 与 任意 KER K 折 交 叉 验 证 相同 的 表现 ， 而 当 样 本 数据 噪 

= 音 较 多 的 情况 下 ， 留 一 法 的 泛 化 误差 则 较 大 (Zhang & Yang, 2015). 

co 尽管 交叉 验证 是 机 器 学 习 领 域 最 为 常用 的 验证 模型 泛 化 能 力 的 手段 ， 但 是 交叉 验证 在 

c 认 知 建 模 领 域 里 的 使 用 并 不 广泛 ， 主 要 原因 在 于 留 一 法 交叉 验证 的 计算 量 往往 较 大 ， 而 K 

> 折 交 叉 验 证 则 面临 着 把 数据 分 为 几 份 的 问题 。 考 虑 到 数据 样本 量 的 限制 以 及 计算 复杂 性 ， 

~ 认 知 建 模 的 研究 者 往往 使 用 信息 准则 的 近似 的 指标 去 代替 交叉 验证 的 指标 。 本 文 在 这 里 介 
绍 四 类 常见 的 指标 ， 分 别 为 AIC、DIC、WAIC 和 PSIS-Loo-CV. 

£ 4.1 AIC 

= 

C AIC(Akaike information criterion) 是 最 早 的 模型 比较 指标 之 一 (Akaike, 1974)， 有 着 详实 


的 理论 基础 。 首 先 ，AIC 是 模型 所 预测 的 数据 分 布 与 真实 数据 分 布 的 差异 。 其 次 ，AIC 还 


被 证 明 是 对 样本 外 预测 能 力 (Out-of-sample predictive accuracy) 和 LOO-CV 的 近似 (Stone， 


1977)。 


AIC 的 计算 公式 为 : 


AIC = -2xlogL(0|y) +2 x K (11) 

其 中 ，logL(6|y) 是 使 用 极 大 似 然 法 估计 或 者 最 大 化 后 验 概率 估计 求 得 的 最 优 参 数 6 的 

对 数 似 然 函 数值 , 可 以 参考 0 节 ; K 为 参数 数量 ， 用 于 对 模型 复杂 度 的 惩 神 。AIC 的 值 越 小 ， 
表明 模型 的 拟 合 效果 越 好 。 

因为 AIC 在 较 小 的 样本 数据 中 可 能 会 表现 不 佳 (Sugiura, 1978)， 有 研究 者 提出 基于 小 样 


— 
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本 偏差 修正 的 AICc(Hurvich & Tsai, 1989). AICc 的 计算 公式 为 : 


n 
n-K-1 


2xKx(K+1) 
n-K-1 


AIC; = -2 x logL(|y) + 2x K x (——) = Alc + (12) 


其 中 n 是 样本 数 
的 模型 的 惩罚 大 于 AIC. Anderson and Burnham (2004) 建 议 当 n/K 小 于 40 时 使 用 AICc， 而 
当 n/K 大 于 40 时 ， 使 用 AIC 和 AICc 则 无 太 大 差异 。 在 认 知 建 模 领域 ， 由 于 行为 实验 中 被 


试 完成 的 试 次 数量 有 限 ，AICc 往往 是 比 AIC 更 合适 的 指标 (Li et al., 2020; Li & Ma, 2021; 


。AICc 在 样本 量 较 大 时 会 趋 近 AIC。 当 样本 量 较 小 时 ，AICc 对 复杂 


Hi 


Suzuki et al., 2012). 

对 于 AIC 的 差异 在 多 大 时 才能 证 明 一 个 模型 优 于 他 者 的 问题 ，Burnham and Anderson 
(2004) 的 建议 是 ， 当 两 个 模型 的 AIC 之 差 绝对 值 小 于 2 时 ， 两 个 模型 之 间 几 乎 无 差异 ; 该 值 
在 4 到 7 之 间 时 ， 存 在 较 少 的 证 据 支 持 AIC 值 更 小 的 模型 ， 该 值 大 于 10 时 ， 则 有 充足 的 证 
据 认 为 AIC 小 的 模型 是 最 优 模型 。 此 外 ，AIC 渐进 于 卡 方 分 布 (Anderson & Burnham, 2004), 
因此 ， 研 究 者 可 以 使 用 卡 方 检验 对 比 不 同 模型 的 AIC. 值 是 否 存在 显著 差异 。 

AIC 的 另 一 个 作用 在 于 它 可 以 转换 成 模型 概率 ， 得 到 所 谓 的 赤 池 权重 (Akaike 
weight)(Wagenmakers & Farrell, 2004). 

假设 有 NN 个 模型 ，1 第 i 个 模型 的 赤 池 权重 计算 公式 如 下 : 


AAICy, = 41Cw — minAIC (13) 


exp(—0.5 x AAICy,) 
Wm; = AN 
XN | exp(—0.5 x AAI Cu, ) 
Anderson and Burnham (2004) 认为 赤 池 权重 是 对 下 文 介绍 的 后 验 模型 概率 (Posterior 


model probability, PMP) p(Mi|y) 的 近似 ， 代 表 在 给 定 样本 数据 的 情况 下 ， 模 型 被 选择 成 为 候 
选 模型 中 最 优 模型 的 概率 。 

AIC 在 认 知 建 模 中 的 应 用 格外 广泛 ， 但 是 它 也 具有 一 些 缺 陷 。 第 一 ， 作 为 对 样本 外 预 
测 能 力 的 近似 ，AIC 的 精确 度 不 如 后 续 将 介绍 的 WAIC 和 PSIS-Loo-CV 等 指标 。 其 次 ，AIC 
在 推导 过 程 中 使 用 插入 预测 (Plug in prediction) 概 率 p (yep|6) 评 估 模 型 在 样本 内 的 预测 准确 
度 ， 而 不 是 对 完整 的 预测 分 布 进行 评估 ， 导 致 对 样本 外 数据 的 预测 有 一 定 的 偏差 。 最 后 ， 
AIC 衡量 模型 复杂 度 时 只 考虑 了 参数 数量 ， 忽 略 了 Myung and Pitt (1997) 总 结 的 影响 模型 复 


杂 度 的 另 两 个 因素 。 


(14) 


4.2 DIC 


DIC(Deviance information criterion) 是 最 常见 的 贝 叶 斯 统计 的 模型 选择 指标 之 一 ， 其 理 


基于 贝 叶 斯 模型 样本 外 预测 能 力 (Expected log pointwise predictive density for a new dataset, 
11 


> 


elpd), DIC 是 对 elpd 的 近似 ， 因 此 DIC 也 只 适用 于 贝 叶 斯 参数 估计 的 模型 。 
DIC 通常 被 认为 是 贝 叶 斯 参数 估计 版 的 AIC， 但 是 与 AIC 不 同 的 是 DIC 仅 适 用 于 基于 
MCMC(Markov chain Monte Carlo) 采 样 估计 的 模型 (Spiegelhalter et al., 2002). 
DIC 的 计算 公式 为 DIC = D(8) - 2x pp. DIC 用 模型 分 布 与 真实 模型 分 布 的 偏差 
(Deviance) 来 衡量 模型 的 性 能 。 偏 差 的 公式 为 : 
D(0) = -2 x log L(y|9) (15) 


DIC 的 公式 的 第 一 项 是 偏差 的 后 验 均值 ， 是 模型 拟 合 的 好 坏 代表 ， 其 计算 公式 为 : 


D(8) = -2 x (£273-1logL(yl0s)) (16) 


其 中 Ss 是 MCMC 的 采样 数 。DIC 公式 的 第 二 项 pp 被 称 作 有 效 参 数 ， 起 到 了 对 更 为 复杂 
的 模型 的 惩罚 作用 。 其 计算 公式 为 : 
pp = D(@) - D(0) (17) 
D(@) = —2 xlogL(y|8) (18) 
除 上 述 公 式 外 ，Gelman, Carlin, et al. (2013) 也 提出 了 用 偏差 的 方差 当 作 有 效 参数 的 方法 ， 
ASA: 


pp = 0.5 x Var (log L(y|9)) (19) 

与 AIC 一 样 ，DIC 值 越 小 的 模型 拟 合 的 越 好 。 当 我 们 把 DIC 除 以 -2， 即 可 得 到 DIC 对 
elpd 的 近似 。 与 AIC 公式 中 的 2K(K 为 参数 数量 ) 类 似 的 是 ，DIC 中 的 pp 也 起 到 了 对 更 为 复杂 
的 模型 的 惩罚 作用 。 不 同 的 是 ，DIC 里 的 pp 不 仅 考虑 了 模型 参数 数量 ， 同 时 还 对 Myung 


and Pitt (1997) 总 结 的 其 他 模型 复杂 度 的 因素 很 敏感 。 因 为 DIC 的 这 一 特性 ， 它 时 常 能 带 给 


可 


研究 者 更 多 的 理解 。 例 如 ，LBA(Linear ballistic accumulator) 模 型 与 DDM(Drift-diffussion 


model) 同 属于 对 反应 时 建 模 的 序列 抽样 模型 (Brown & Heathcote, 2008). LBA 通常 被 认为 是 
DDM 的 简化 版 ， 为 验证 这 二 者 谁 更 复杂 ，Donkin 等 人 使 用 DIC 对 二 者 进行 了 对 比 (Donkin 
尽管 LBA 模型 的 参数 数量 比 漂移 扩散 模型 更 少 ， 但 是 LBA 模型 
DIC 指标 中 pp 更 大 ， 这 表明 LBA 模型 可 能 并 没有 简化 DDM. 
首先 ， 贝 叶 斯 参数 估计 的 先 验 为 有 信息 且 合适 的 先 验 时 ， 能 降低 模型 过 拟 合 的 程度 。 
相 较 于 频率 主义 统计 ， 贝 叶 斯 参数 估计 更 适合 构建 分 层 模型 ， 可 以 同时 对 所 有 被 试 的 数据 


进行 拟 合 ， 使 得 模型 拟 合 的 结果 更 少 出 现 极 端 值 (Ahn et al., 2017; Gelman, Carlin, et al., 2013). 


et al., 2009)。 结 果 发 现 ， 


其 次 ，DIC 对 样本 外 预测 能 力 的 近似 比 AIC 更 精确 。 最 后 ， 相 较 于 PSIS-Loo-CYV ifj zi, DIC 


的 计算 简便 ， 常 用 的 MCMC 软件 如 Winbugs(Ntzoufras, 2011) 和 Jags(Plummer et al., 2016) 均 


a 
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AET DIC 的 计算 方法 (Myung & Pitt, 2018). 

DIC 同时 也 有 不 少 的 缺点 。 例 如 DIC 的 表现 受 参 数 后 验 分 布 的 形态 以 及 参数 点 估计 的 
稳定 性 的 影响 较 大 。 当 参数 后 验 分 布 的 点 估计 不 能 很 好 地 用 均值 代表 ， 或 者 模型 参数 为 非 
指数 族 分 布 时 ，DIC 的 估计 可 能 存在 偏差 。 例 如 ， 当 参数 后 验 分 布 呈 多 峰 时 DIC 均 容 易 小 


于 O(Evans et al., 2020; Spiegelhalter et al., 2014). 


4.3 WAIC 和 PSIS-Loo-CV 


WAIC(Widely applicable information criterion)( Watanabe, 2010) 和 PSIS-Loo-CV(Pareto 


smoothed importance sampling-leave-one-out cross-validation)( Vehtari et al., 2017) 与 前 面 介绍 的 


DIC 类 似 ， 是 对 elpd 的 近似 ， 且 也 仅 适 用 于 基于 MCMC 采样 的 贝 叶 斯 模型 。 


与 DIC 不 同 ，WAIC 使 用 了 Ipd(Log pointwise predictive density, 也 在 一 些 文章 中 缩写 为 
lppd) 去 近似 elpd. Ipd 是 模型 在 当前 样本 数据 点 上 模型 的 预测 力 ， 其 计算 公式 为 : 


[pd = YL, log poda (20) 


RP, 为 各 个 数据 点 ，S 为 MCMC 采样 的 数量 。 通 过 Ipd 近似 elpd 时 往往 会 高 估 elpd， 
即 高 估 模 型 的 预测 能 力 。 因 此 ，WAIC 在 计算 elpd 时 引入 了 一 修正 项 Paic。， 这 一 项 与 AIC 
里 的 参数 数量 和 DIC 里 的 pp 类 似 ， 都 是 用 于 惩罚 模型 的 复杂 度 。#Pyaic 代 表 估 计 出 的 参数 的 


有 效 数 量 (estimated effective number of parameters)， 其 计算 公式 为 : 


Pwaic = 9. Varsi(logp(yil0®)) (21) 
i=1 
elpdywarc = Ipd — Pwaic (22) 


为 了 使 WAIC 渐进 于 卡 方 分 布 ， 我 们 可 以 将 其 乘 上 -2。 值 得 注意 的 是 ，elpdwurc 越 大 ， 
模型 的 样本 外 预测 能 力 越 好 ， 而 WAIC 越 小 说 明 模 型 拟 合 越 好 。 

5j DIC 相 比 ， 虽 然 WAIC 也 采用 插入 预测 的 方法 来 评估 样本 外 泛 化 能 力 ， 但 是 WAIC 
有 具有 额外 的 多 个 优势 。 第 一 ，WAIC 利用 整个 后 验 分 布 计算 模型 复杂 度 的 惩罚 项 ， 其 结果 


更 稳定 。 第 二 ，WAIC 在 参数 后 验 分 布 为 非 正 态 的 模型 上 的 表现 也 要 优 于 DICGMyung & Pitt, 


贝 叶 斯 留 一 法 交叉 验证 (Bayesian leave-one-out cross-validatiom) 也 可 以 被 用 于 近似 


其 计算 公式 为 : 


elpdioo = Xi-ilogpGrily-) (23) 
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pGily-) = [ » ouo x p(6|yj.1)d8 (24) 


其 中 i 是 数据 样本 点 。 基 于 elpdyoo 的 信息 准则 指标 为 Looic(Leave-One-Out Cross- 


Validation Information Criterion)， 是 elpaioo 乘 以 -2。 对 于 留 一 法 交叉 验证 来 说 ， 其 对 模型 复 


杂 度 的 惩罚 项 为 elpdioo 和 矶 qd 之 间 的 差异 。 


贝 叶 斯 留 一 法 交叉 验证 计算 量 极 大 。 为 了 简便 计算 ，Vehtari et al. (2017) 提 出 了 PSIS- 
Loo-CV 去 近似 完整 的 Loo-CV。PSIS-Loo-CV 使 用 了 MCMC 样本 ， 大 幅度 降低 了 计算 量 。 
因为 R 语言 中 loo 包 纳 入 了 该 算法 ， 这 使 得 它 被 广泛 应 用 于 实际 研究 中 。 此 外 ，PSIS-Loo- 
CV 提供 了 一 项 模型 诊断 指标 ， 帕 累 托 分 布 的 参数 k 值 ， 若 绝 大 多 数 数据 点 的 k 值 大 于 0.7, 


则 说 明 模 型 的 设置 可 


能 存在 问题 。 


除了 使 用 WAIC 和 PSIS-Loo-CV 进行 模型 比较 外 ，Vehtari et al. (2019) 还 推荐 使 用 结合 


PSIS-Loo-CV MÆR H 


E ROUES (Stacking)77 (Friedman et al., 2001) 去 计算 每 个 模型 的 权 


重 ， 有 具体 细节 可 见 Yao et al. (2018)。 与 赤 池 权重 一 样 ， 堆 县 方法 的 模型 的 权重 可 用 于 模型 


平均 。 值 得 注意 的 


点 是 ， 当 堆 倒 方法 的 模型 权重 用 于 模型 比较 时 ， 表 现 相 似 的 两 个 模型 


会 互相 “分 享 ” 权 重 
与 WAIC 比 起 来 


PSIS-Loo-CV 能 更 全 


， 导 致 二 者 权重 较 低 且 相近 (Sivula et al., 2020). 


，PSIS-Loo-CV 被 证 明 是 对 elpd 更 好 的 近似 (Vehtari et al., 2016)， 使 得 


地 考虑 Myung and Pitt (1997) 提 出 的 三 个 影响 模型 复杂 度 的 因素 。 并 


H. Vehtari et al. (2017)7F RHI R & loo 降低 了 使 用 门槛 ， 研 究 者 只 需要 输入 MCMC 采样 的 似 


然 函 数 ， 即 可 计算 WAIC 和 PSIS-Loo-CV。 关 于 使 用 WAIC 和 PSIS-Loo-CV 的 有 具体 建议 ， 


可 以 详 见 Vehtari (2022)。 


4.4 不 同 交 叉 验 证 近 


似 指标 的 总 结 


交叉 验证 类 的 指标 在 认 知 建 模 中 的 使 用 极 广 ， 随 着 近年 来 黑箱 MCMC 软件 的 流行 ， 使 


at 


的 应 用 格外 的 广泛 。 


虽然 上 述 这 些 指 


似 然 法 估计 或 者 最 大 后 验 概 率 法 拟 合 的 模型 ， 而 DIC、WAIC 和 Loo-CV 则 用 于 MCMC fii 


计 的 模型 中 。 但 是 在 


研究 者 能 较为 容易 地 使 用 贝 叶 斯 参数 估计 ， 这 极 大 地 推广 了 DIC、WAIC 和 Loo-CV 的 使 
用 。 因 为 交叉 验证 类 


的 指标 更 容易 确认 复杂 模型 的 为 最 优 模 型 ， 这 使 得 它们 在 心理 学 研究 


标 建立 在 不 同 的 假设 和 近似 方法 的 基础 之 上 ，AIC 更 多 地 应 用 在 极 大 


些 认 知 建 模 的 应 用 里 ， 它 们 的 差异 并 不 明显 。 例 如 ，Evans (2019) 在 


LBA 模型 上 对 比 了 AIC、DIC、 和 WAIC， 虽 然 它们 的 表现 类 似 ， 但 是 DIC 和 WAIC 的 表 


现 要 略 优 于 AIC。 又 比如 ，Westbrook et al. (2020) 使 用 和 AIC 和 DIC 对 比 了 不 同 的 注意 力 
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DDM(Attentional drift-diffusion model, aDDM)， 二 者 的 结果 几乎 一 致 。 

在 本 文 的 案例 里 ， 我 们 用 最 大 化 后 验 概率 法 的 结果 计算 了 AIC， 并 用 分 层 贝 叶 斯 参数 
估计 的 结果 计算 了 DIC. WAIC 和 PSIS-Loo-CV， 如 图 5。 对 于 贝 叶 斯 模型 比较 指标 ， 根 据 
Vehtari et al. (2017)， 我 们 可 以 对 不 同 模型 进行 Wald 检验 ， 从 而 判断 模型 之 间 是 否 有 显著 的 
差异 。Wald 检验 的 结果 表明 ， 两 模型 的 DIC 存在 显著 差异 ，Dprc = 25.03 > 1.96 x opr = 
22.85， 其 中 也 表示 模型 2 与 模型 1 在 交叉 验证 指标 上 的 差异 。 而 WAIC 和 PSIS-Loo-CV 的 


表现 几乎 一 致 ， 模 型 之 间 的 差异 也 显著 ， Dwarc/Loo-cv = 22.70 > 1.96 X owarc/Loo-cv = 


21.56. 
model 
| 
c 
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图 5. 不 同 交叉 验证 类 的 近似 指标 对 模型 一 和 模型 二 的 评估 ， 信 息 准 则 指标 越 小 代表 模型 拟 合 的 越 好 。 
iE: PSIS-Loo-CV 计算 的 结果 常 记 作 LOOIC (Leave-One-Out Information Criterion). 


5 边际 似 然 


边际 似 然 或 称 作 模型 证 据 则 是 另 一 大 类 的 模型 评估 指标 ， 同 时 也 是 贝 叶 斯 模型 选择 


(Bayesian model selection，BMS) 的 核心 。 贝 叶 斯 参数 估计 的 公式 为 : 


_ _ P(y|9)xp@) 
p(aly) E [v»(y|8)xp(6)a6 (25) 


但 是 上 式 忽 略 了 模型 M 这 一 项 。 如 果 对 上 式 进 行 修改 ， 增 加 M， 即 可 得 : 


_ p(y|0, M)xp(0,M) 
Ol f»(y|8, M)xp(6,M)a6 (26) 
此 时 贝 叶 斯 公式 中 的 分 母 即 为 模型 的 边际 似 然 或 模型 证 据 。 边 际 似 然 计 算 的 是 参数 空 


间 范 围 内 模型 对 数据 的 平均 拟 合 (Average fit)， 边 际 似 然 越 大 ， 模 型 对 样本 数据 解释 的 越 好 。 
边际 似 然 可 以 平衡 模型 的 复杂 度 和 拟 合 效果 。 例 如 ， 较 简单 的 模型 可 能 具有 较 低 的 拟 
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合 优 度 ， 但 是 却 有 较 高 的 边际 似 然 ， 因 为 它们 的 参数 空间 不 确定 性 小 。 相 反 ， 复 杂 的 
可 能 具有 较 高 的 拟 合 优 度 ， 但 是 其 边际 似 然 却 较 小 ， 因 为 它们 在 参数 空间 的 不 确定 性 


(MacKay, 2003)。 


模型 


较 大 


边际 似 然 同时 考量 了 Myung and Pitt (1997) 总 结 的 三 种 影响 模型 复杂 度 的 因素 ， 如 图 6 


所 示 。 过 于 简单 的 模型 给 予 观测 数据 的 概率 p(M|y) 往 往 很 少 ， 因 此 其 边际 似 然 也 很 小 
于 复杂 的 模型 的 数据 分 布 更 广 ， 但 是 它 分 给 当前 观测 数据 的 概率 p(CMI7) 也 很 小 ， 由 此 
际 似 然 也 较 小 ;只 有 当 复 杂 度 适中 时 ， 观 测 数据 对 应 的 边际 似 然 才 会 较 大 。 


图 6， 边 际 似 然 对 不 同类 模型 的 惩罚 。 横 坐标 为 数据 值 ， 纵 坐标 代表 数据 值 对 应 的 似 然 值 。 
边际 似 然 还 对 贝 叶 斯 参数 拟 合 的 先 验 信息 格外 地 敏感 。 例 如， 当 使 用 弱 信 息 的 移 
布 时 ， 复 杂 模 型 的 边际 似 然 小 于 简单 模型 ， 当 使 用 更 窗 的 、 信 息 更 丰富 的 先 验 分 布 时 


杂 模 型 的 边际 似 然 就 有 可 能 大 于 简单 模型 (Farrell & Lewandowsky, 2018). 


; 过 


HJ 


验 分 
， 复 


边际 似 然 在 实际 的 应 用 中 存在 两 个 主要 问题 。 第 一 ， 先 验 分 布 对 边际 似 然 的 计 香 


有 较 大 的 影响 。 当 我 们 的 数据 点 较 多 时 ， 先 验 分 布 对 参数 估计 的 结果 不 恰当 的 先 验 分 
对 边际 似 然 的 计算 结果 产生 很 大 的 影响 (Boehm et al., 2018)。 对 于 先 验 的 选择 ， 主 观 贝 
方法 认为 应 当 根 据 已 有 的 知识 和 信念 选择 先 验 分 布 ， 而 客观 贝 叶 斯 方法 则 试图 排除 先 


结果 
布 会 
叶 斯 
验 选 


择 的 个 人 因素 ， 更 多 地 使 用 如 先 验 杰 佛 里 斯 默认 先 验 分 布 (Jeffreys default prior distribution) 


等 无 信息 的 先 验 分 布 (Jeffreys, 1998; Vandekerckhove et al., 2015)。 为 了 选择 出 更 合适 的 


分 布 ， 研 究 者 可 以 使 用 敏感 性 分 析 (Prior sensitivity check)， 变 换 不 同 的 先 验 分 布 检查 划 
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先 验 
对 边 


际 似 然 的 影响 。 


第 二 个 问题 是 ， 计 算 边 际 似 然 需要 对 先 验 分 布 和 模型 的 似 然 函 数 在 整个 参数 空间 上 i 
行 乘积 积分 。 然 而 只 有 极 少 的 简单 模型 的 边际 似 然 可 以 直接 求解 ， 更 多 模型 的 边际 似 然 是 


无 法 简单 计算 的 。 因 此 ， 许 多 近似 方法 和 采样 积分 方法 被 提出 以 用 于 计算 边际 似 然 。 


5.1 BIC 


BIC(Bayesian information criterion)(Schwarz, 1978); AIC 类 似 ， 也 是 为 最 经 典 、 应 用 最 


为 广泛 的 模型 选择 指标 之 一 。BIC 是 下 文中 拉 普 拉 斯 近似 (Laplace approximation) 边 际 似 然 
的 一 个 特例 (Bishop, 2006)。 当 计算 拉 普 拉 斯 近似 时 ， 假 设 先 验 分 布 为 无 信息 先 验 ， 且 当 数 
据点 n 的 数量 极 多 时 ， 根 据 大 数 定律 ， 拉 普 拉 斯 近似 计算 的 结果 可 以 被 简化 为 BIC。 


BIC 的 计算 公式 为 : 


BIC = 一 2 x logL(6|y) +K x In(n) (27) 


其 中 ，KIm(n) 是 BIC 里 对 模型 复杂 度 的 惩罚 项 ，K 是 参数 数量 ，n 是 数据 的 数量 。 可 见 ， 


BIC 不 仅 考 虑 了 模型 参数 数量 对 您 罚 模型 复杂 度 的 影响 ， 也 将 数据 量 作为 惩罚 模型 复杂 度 
的 关键 因素 ，BIC 与 AIC 一 样 ， 其 值 越 小 说 明 模 型 拟 合 的 越 好 。 


除 此 之 外 ，BIC 有 根据 样本 矫正 的 SABIC(Sample-adjusted BIC)(Sclove, 1987)， 然 而 其 


缺乏 理论 依据 ， 应 用 较 少 (Dziak et al., 2020). 


虽然 BIC 是 最 常见 的 模型 选择 指标 (Wilson & Collins, 2019)， 然 而 BIC 仍然 存在 缺点 。 


第 一 ，BIC 对 模型 复杂 度 的 每 如 只 考虑 了 模型 的 参数 和 样本 数量 ， 并 没有 考虑 到 Myung and 
Pitt (1997) 总 的 另外 两 个 影响 模型 复杂 的 因素 ， 即 参数 空间 范围 和 模型 的 数学 形式 。 第 二 ， 


5.2 近似 方法 计算 边际 似 然 


本 文 介绍 的 近似 方法 计生 


虽然 BIC 是 在 贝 叶 斯 理论 的 框架 下 推导 而 来 ， 但 是 它 并 未 考虑 不 同 先 验 信息 对 结果 的 影响 。 


边际 包括 Savage-Dickey 比 (Savage-Dickey Ratio, SDR), 1v3£ 


拉 斯 近似 (Laplace approximation)， 核 密度 估计 方法 (Kernel density estimation, KDE) 以 及 变 分 
推断 。 与 BIC 相 比 ， 这 些 方法 考虑 了 先 验 分 布 的 影响 ， 但 其 计算 量 并 没有 显著 增 大 ;与 后 
文 介绍 的 采样 方法 相 比 ， 近 似 方 法 的 误差 更 大 ， 但 其 计算 量 却 远 小 于 采样 方法 ， 使 得 它 在 


很 多 研究 中 得 到 了 应 用 。 


Savage-Dickey 比 适用 于 在 组 套 模型 的 模型 比较 中 计算 二 者 的 贝 叶 斯 因子 (Dickey, 1973; 


Dickey, 1976; Wagenmakers et al., 2010)。 假 定 简单 模型 所 缺少 的 参数 为 6 ，Savage-Dickey 比 


将 嵌 套 模型 的 贝 叶 斯 因子 计 入 


简化 为 完整 模型 6 等 于 0 时 的 后 验 概率 与 先 验 概率 之 比 。 在 本 
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文 的 案例 中 ， 当 我 们 将 负责 巴 普 洛 夫 效 应 的 两 个 参数 1 和 b 的 组 水 平 的 均值 参数 固定 为 0 
时 ， 计 算 对 数 贝 叶 斯 因子 为 2.24。。Savage-Dickey 比 适用 于 各 个 参数 的 先 验 分 布 是 相互 独 
立 的 情况 ， 但 当先 验 分 布 是 有 协 方差 矩阵 的 多 维 分 布 时 则 需要 矫正 (Heck, 2019). 

拉 普 拉 斯 近似 主要 应 用 于 使 用 最 大 化 后 验 概率 拟 合 模型 的 情况 ， 其 主旨 在 于 使 用 多 维 
高 斯 分 布 来 近似 参数 的 分 布 ， 并 用 泰勒 展开 避免 积分 问题 。 与 BIC 相 比 ， 拉 普 拉 斯 近似 的 
边际 似 然 考虑 了 先 验 分 布 的 影响 ， 且 其 计算 误差 更 小 。 拉 普 拉 斯 近似 的 计算 边际 似 然 的 公 
式 为 : 


A » K 1 
logp(y|M) « logL(Ó|y) t logp(0|M) Pu — x log 2x — 5 loslH| (28) 


SEPA A POO RU er AEE RE A SN EE a STA A et FEA SE 
边际 似 然 的 方法 之 一 (Gershman, 2016; Huys et al., 2011; Myung & Pitt, 1997)， 其 关键 步骤 在 
于 计算 海 森 矩阵 的 行列 式 ， 但 当 海 森 矩 阵 为 非 正定 矩阵 时 ，log | 如 这 一 项 有 可 能 为 非 数值 
(NaN). 

核 密度 估计 方法 则 可 利用 MCMC 采样 得 到 的 参数 后 验 分 布 来 计算 边际 似 然 。 核 密度 估 
计 方 法 使 用 了 非 参 统计 方法 中 的 核 密度 估计 计算 参数 的 后 验 概率 p(6|y) = k(6|9,8)。 其 中 ， 
上 为 密度 核 函数 ， 通 常 为 高 斯 分 布 (Wasserman, 2006)。6 是 MCMC 采样 获得 的 各 个 参数 样本 ， 
而 6 是 MCMC 采样 分 布 的 点 估计 代表 ， 一 般 是 概率 密度 最 高 的 点 。 

在 得 到 了 参数 的 后 验 概率 p(6|y) 后 ， 根 据 贝 叶 斯 公式 ， 我 们 便 可 以 直接 得 到 边际 似 然 : 


p(y|M) = BF. (29) 


核 密度 估计 方法 计算 简便 ， 且 不 受 海 森 矩 阵 的 限制 ， 一 些 模拟 研究 还 发 现 它 的 表现 要 
比 拉 普 拉 斯 近似 等 方法 更 好 (Bos, 2002). 

变 分 推 产 (Varitional inference) 是 除 采样 方法 外 另 一 常见 的 贝 叶 斯 参数 估计 的 方法 。 与 采 
样 方法 不 同 的 是 ， 变 分 推断 试图 用 变 分 分 布 q(z) 近 似 参 数 后 验 分 布 p(9|D)， 从 而 将 贝 叶 斯 
公式 里 的 积分 问题 变换 成 优化 问题 (Bishop, 2006)。 变 分 推断 不 仅仅 在 贝 叶 斯 参数 估计 里 有 
着 许多 应 用 ， 它 还 可 以 被 当 作 理 解 认 知 过 程 的 理论 (Friston et al., 2006)。 

变 分 推断 的 优化 函数 被 称 作证 据 下 界 ELBO(Evidence Lower Bound) 或 者 负 自 由 能 
(Negative free energy)(Bishop, 2006; Friston et al., 2007)， 是 对 数 边际 似 然 的 下 限 。 最 大 化 
ELBO 时 能 获得 边际 似 然 的 估计 值 ，ELBO 的 公式 为 : 


p(8, y|M) 
q(z) 


ELBO 的 公式 表明 边际 似 然 可 以 被 分 为 两 部 分 ， 第 一 部 分 是 似 然 函数 在 变 分 分 布 上 的 
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ELBO = Eg [log ] = Eg [log pCyI8, M)] + Dei Ca C2) |p CO | M)) (30) 


先 验 的 差异 。 当 模型 


越 小 (Stephan et al., 2009)。 


期 望 值 ， 代 表 模 型 拟 合 的 好 坏 ; 第 二 部 分 是 变 分 分 布 和 先 验 分 布 的 KL 散 度 ， 代 表 后 验 和 
! 拟 合 程度 越 差 或 者 先 验 分 布 与 后 验 分 布 之 间 的 差异 越 大 时 ， 边 际 似 然 


在 实际 应 用 里 ， 基 于 Matlab 的 变 分 推断 的 工具 包 VBA 在 拟 合 模型 完毕 时 可 以 返回 优 


化 ELBO(Daunizeau etal.,2014)。 此 外 ， 基 于 Stan 拟 合 的 模型 也 会 返 


回 未 标准 化 的 后 验 分 布 


概率 和 变 分 分 布 概率 ， 可 以 用 于 计算 ELBO。 变 分 推断 方法 问题 在 于 它 得 到 的 是 边际 似 然 


的 下 限 ， 


少 有 理论 研究 关注 ELBO 对 边际 似 然 的 近似 误差 (Blei et al., 2017)。 


5.3 采样 方法 计算 的 边际 似 然 


蒙特 卡 洛 采 样 方法 是 一 种 常见 的 统计 模拟 的 方法 ， 当 一 个 积分 公式 难 


我 们 可 以 通 


似 然 中 。 


以 直接 求解 时 ， 


过 不 断 地 数值 采样 ， 带 入 到 公式 中 计算 ， 逐 步 逼 近 积 分 的 结果 。 因 为 复杂 模型 
的 边际 似 然 的 积分 无 法 通过 解析 解 求解 ， 这 使 得 许多 蒙特 卡 洛 采样 算法 被 应 用 到 计算 边际 


采样 方法 种 类 繁多 ， 包 括 热 力学 积分 (Thermodynamic integration)， 序 列 蒙特 卡 洛 采样 


(Sequential monte carlo sampler SMC) 和 粒子 MCMC 的 方法 。 


这 些 方 法 的 应 用 受到 了 限制 (Doucet & Johansen, 2009; Murphy, 2023)。 相 上 


然而 ， 由 于 缺少 易 用 的 软件 ， 


之 下 ， 重 要 性 采 


样 (Gamerman & Lopes, 2006; Hammersley, 2013) 和 桥 采样 (Bridge sampling)(Gronau et al., 2017; 


Meng & Wong, 1996)， 有 着 易 用 的 软件 或 其 本 身 计 算 简便 ， 广泛 应 用 于 心 


重要 + 


生 采 样 属于 蒙特 卡 洛 方法 的 一 种 ， 它 的 关键 在 于 引入 重要 性 采 检 


里 学 研究 中 。 
分 布 。 当 从 一 个 


分 布 里 采样 困难 或 者 它 的 样本 质量 不 高 时 ， 我 们 就 可 以 退 而 求 其 次 ， 从 重要 性 分 布 里 采样 
(Bishop, 2006)。 在 计算 边际 似 然 时 ， 我 们 首先 引入 重要 性 采样 分 布 gjs (9)， 


因此 ， 


pM) = | pre, M) x pondo = 


[ p010, x peoi x 2 dg = 


(8) 
p(ylð, M) x p(6;|M) _ 
| gis (8) x gis (0)d0 NN 


= p(y|0, M) x p(6|M) 
dis 8) gis (0) 


边际 似 然 可 由 下 式 得 到 : 


[0i, M)xp(6;|M) 


^ 1 
DOIM) = Lyr, 22 o ,Oi~g1s(0) 


从 而 得 到 : 


(31) 


(32) 


通过 从 重要 性 分 布 里 不 断 采 样 ， 带 入 到 贝 叶 斯 公式 里 计算 ， 再 将 不 同样 本 的 结果 求 和 


即 可 得 到 边际 似 然 。 在 重要 性 采样 分 布 里 ， 重 要 性 分 布 的 选择 对 结果 影响 极 大 。 为 了 保证 
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估计 结果 有 较 小 的 方差 ， grs(6) 通 常 是 有 一 个 较 厚 尾部 的 分 布 。 此 外 ， 当 使 用 重要 性 采样 


计算 边际 似 然 的 倒数 元 i 时 ， 此 时 的 重要 性 采样 也 被 称 作 RIS(Reverse importance 


sampling)(Gelfand & Dey, 1994)。 相 对 的 ，RIS 的 采样 分 布 更 需要 一 个 有 着 较 薄 尾部 的 分 布 。 
利用 MCMC 采样 得 到 参数 后 验 的 样本 来 计算 边际 似 然 能 显著 减低 计算 量 ， 此 时 的 重要 
性 采样 被 称 为 调和 平均 估计 器 (Harmonic mean estimator)。 调 和 平均 器 易于 计算 ,但 是 计算 
结果 方差 较 大 ， 使 得 它 鲜 见 于 实际 研究 。 
提高 调和 平均 估计 器 性 能 的 常见 方法 有 如 下 几 种 。 第 一 ， 使 用 加 权重 要 性 采样 (Acerbi 
etal., 2018)。 此 法 需要 RIS 乘 上 一 个 有 着 较 薄 尾部 的 函数 F(6)， 且 f(9)d9 = 1， 因 此 f(9) 
可 以 是 多 维 高 斯 分 布 。RIS 计算 公式 为 : 


> "" -1 som fem M) x T1 |M) 3 


第 二 是 将 MCMC 样本 蔡 换 为 均匀 分 布 或 者 高 斯 分 布 与 MCMC 样本 的 混合 分 布 
(Steingroever et al., 2016; Vandekerckhove et al., 2015)， 该 方法 因为 便于 计算 ， 在 心理 学 有 着 
很 多 应 用 。 
桥 采样 是 对 重要 性 采样 的 改善 和 提升 ， 与 重要 性 采样 一 样 ， 桥 采样 也 利用 了 MCMC 的 
样本 。 相 较 于 计算 更 为 简单 的 重要 性 采样 ， 桥 采样 避 开 了 选择 分 布 的 步骤 ， 其 计算 结果 的 
方差 更 小 ， 并 且 更 适合 于 分 层 模型 。 桥 采样 的 特点 在 于 ， 通 过 引入 一 个 连接 目标 分 布 和 提 
= 议 分 布 的 桥 分 布 Bridge distribution)， 以 此 减 小 计算 边际 似 然 的 方差 并 提高 计算 的 精度 
= (Meng & Wong, 1996)。 桥 采样 的 缺点 在 于 ， 其 计算 较为 复杂 ， 需 要 反复 迄 代 直至 结果 稳定 ， 

[r 这 增加 了 计算 的 时 间 和 资源 ， 具 体 可 见 Gronau et al. (2017). Gronau 等 人 开发 的 RR 包 
bridgesampling 简化 了 计算 过 程 ， 使 用 JAGS 和 Stan 拟 合 的 模型 可 以 使 用 该 包 来 计算 边际 似 


5.4 不 同方 法 计算 边际 似 然 的 总 结 
计算 边际 似 然 的 方法 种 类 繁多 ， 选 择 何 种 方法 依赖 于 具体 的 使 用 情景 。BIC 是 最 简单 
的 方法 ， 但 它 的 误差 也 最 大 。 此 外 ， 因 为 BIC 是 无 先 验 信息 的 边际 似 然 的 近似 ， 理 论 上 使 
] BIC 会 更 倾向 于 选择 更 简单 的 模型 。Evans (2019) 认 为 ， 当 研究 者 使 用 有 信息 的 先 验 分 布 
拟 合 的 模型 时 使 用 BIC 是 不 恰当 的 。 计 算 边 际 似 然 的 先 验 分 布 应 与 拟 合 模型 的 先 验 保持 一 
致 。 
当 使 用 最 大 化 后 验 概率 法 拟 合 模 型 时 ， 拉 普 拉 斯 近似 是 更 简便 的 方法 。 如 果 使 用 
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MCMC 采 样 ， 且 模型 非 分 层 模型 时 ， 习 


ran 


要 性 采样 、 拉 普 拉 斯 近似 或 者 KDE 方 法 更 为 合适 
因为 它们 的 计算 量 更 小 。 若 模型 是 分 层 模 型 ， 此 时 拉 普 拉 斯 近似 的 海 森 矩阵 的 行列 式 不 易 
计算 ， 再 加 之 重要 性 采样 又 面临 着 采样 分 布 选择 的 困难 ， 这 使 得 桥 采 样 是 更 为 合理 的 选择 。 
当 研 究 者 比较 两 个 模型 时 ， 可 以 计算 两 个 模型 的 边际 似 然 的 比值 ， 结 果 即 为 贝 叶 斯 因 
子 (Bayes factor) (Kass & Raftery, 1995)。 贝 叶 斯 因子 的 特性 在 于 能 够 为 零 假 设 提 供 证 据 ， 因 
此 它 在 当前 的 心理 学 研究 里 有 着 许多 应 用 。 关 于 贝 叶 斯 因子 在 数据 分 析 的 使 用 ， 以 及 其 分 
析 结 果 的 解读 ， 可 见 胡 传 鹏 et al. (2018)。 此 外 ，BIC 作为 边际 似 然 的 近似 ， 也 可 以 被 用 于 


计算 贝 叶 斯 因子 和 后 验 模 型 概率 (Wagenmakers, 2007)。 其 计算 方法 为 ， 将 两 个 模型 的 BIC 
之 差 乘 以 -0.$， 然 后 通过 指数 函数 可 以 将 其 转化 为 贝 叶 斯 因子 。 
值得 注意 的 是 ， 与 常见 的 数据 分 析 不 同 ， 认 知 建 模 里 贝 叶 斯 因子 对 比 的 两 个 模型 可 以 


是 任意 两 个 模型 ， 只 要 它们 建 模 的 数据 相同 即 可 。 而 T-test 和 ANOVA 里 对 比 的 两 个 模型 则 


必须 是 备 择 假设 和 零 假设 。 


在 本 文 的 案例 里 ，BIC 和 拉 普 拉 斯 近似 的 边际 似 然 均 基于 最 大 化 后 验 概 率 法 的 结果 ， 
我 们 可 以 利用 两 者 的 结果 计算 每 个 被 试 的 贝 叶 斯 因子 。 相 比 之 下 桥 采 样 方法 适用 于 分 层 贝 
叶 斯 估计 ， 可 以 直接 计算 组 层面 的 边际 似 然 值 ， 进 而 可 以 获得 组 层面 的 贝 叶 斯 因子 (Group 


bayes factor, GBF). 


图 7 比较 了 基于 BIC、 拉 普 拉 斯 近似 和 桥 采样 方法 计算 组 层面 贝 叶 斯 因子 的 结果 。 需 
要 注意 的 是 ， 为 了 方便 比较 ， 我 们 通过 求 和 所 有 被 试 在 个 体 层面 的 贝 叶 斯 因子 (基于 BIC 和 
拉 普 拉 斯 近似 方法 ) 来 获得 组 层面 的 贝 叶 斯 因子 。 结 果 发 现 ， 三 种 方法 下 的 组 贝 叶 斯 因子 均 
支持 真实 模型 ， 即 模型 一 为 最 优 模型 。 然 而 ， 它 们 的 具体 数值 差异 却 极 大 。BIC 版 的 对 数 
组 贝 叶 斯 因子 为 12.59， 桥 采样 版 的 对 数组 贝 叶 斯 因子 为 39.92， 而 拉 普 拉 斯 近似 版 的 对 数 
组 贝 叶 斯 因子 值 为 50.63。 数 值 的 差异 不 仅 是 因为 不 同 指标 近似 的 精度 不 同 ， 同 时 也 受到 模 
型 拟 合 方法 差异 的 影响 。 
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键 的 


和 新 兴 的 模型 选择 指标 ， 对 最 常见 的 两 类 指标 : 


bri 


M 
SO 
o 


EN 
o 
o 


o 
o 
o 


BIC 


表示 模型 拟 合 的 越 好 。 


总 结 吉 与 展望 


图 7， 不 同 组 边际 似 然 近似 指标 对 模型 一 和 模型 二 的 评 


| | | | 


Laplace Bridge-Sampling 


估 。 所 有 指标 均 被 转换 为 对 数 边际 似 然 ， 其 值 越 大 


计算 模型 在 实验 心理 学 的 研究 在 最 近 十 余年 愈 发 的 广泛 ， 而 模型 比较 是 认 知 建 模 中 关 
一 环 ， 不 恰当 地 进行 模型 比较 可 能 会 让 研究 者 得 出 错误 的 结论 。 因 此 ， 合 理 地 使 用 模 
型 比较 指标 对 基于 计算 模型 的 研究 来 说 至 关 重 要 。 本 文 梳理 、 总 结 了 在 认 知 建 模 领 域 常见 


行 了 对 比 ， 建 议 了 不 同 指标 的 使 用 条 件 。 


方法 。 
值得 一 提 的 是 ， 过 往 许多 使 用 计算 模型 的 研究 均 采用 较为 简单 的 模型 比较 指标 ， 如 
AIC 和 BIC 等 。 这 些 指标 尽管 有 着 许多 优点 ， 但 却 忽视 了 影响 模型 复杂 度 等 诸多 重要 因素 。 
而 近年 来 被 推广 的 指标 ， 诸 如 WAIC， 近 似 /采样 方法 计算 的 边际 似 然 等 较为 复杂 的 指标 对 
复杂 度 的 考量 要 更 加 的 完善 ， 由 此 基于 这 些 指标 的 模型 比较 的 结果 也 更 加 稳定 可 靠 。 
这 些 指标 将 更 多 地 应 用 在 研究 里 。 

除 此 之 外 ， 早 期 认 知 建 模 的 研究 大 都 只 注重 使 用 相对 指标 来 评估 模型 的 优 劣 ， 忽 视 了 
模型 拟 合 的 绝对 好 坏 。 这 导致 了 一 种 困境 : 即便 我 们 选择 出 了 一 个 最 优 模型 ， 该 模型 却 并 


模型 
随 着 


不 一 
选择 


越 来 越 多 成 熟 且 容易 操作 的 工具 的 发 展 ， 


定 对 样本 数据 有 完善 的 描述 。 因 此 ， 在 进行 模型 


最 优 模型 ， 再 通过 拟 合 优 度 指标 评估 模 


并 结合 


型 对 当前 
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基于 交叉 验证 的 指标 和 基于 边际 似 然 的 指 


一 个 简单 的 案例 ， 提 供 了 基体 的 计算 


比较 时 ， 我 们 首先 需要 通过 相对 指标 
数据 拟 合 的 绝对 优良 度 。 只 有 当 模 型 


在 相对 指标 上 胜出 其 他 候选 模型 ， 且 在 数据 上 有 着 良好 的 绝对 拟 合 优 度 时 ， 我 们 才能 将 它 
当 作 最 优 模型 。 随 着 后 验 预 测 检 查 等 方法 的 普及 ， 今 后 的 研究 应 将 更 多 地 结合 相对 指标 和 
绝对 指标 来 进行 模型 评估 及 模型 验证 。 


6.1 边际 似 然 和 交叉 验证 的 争论 

本 文 着 重 介绍 了 边际 似 然 与 交叉 验证 这 两 类 最 常见 的 模型 比较 方法 。 尽 管 二 者 基于 的 
理论 大 相 径 庭 ， 但 是 也 有 研究 表明 二 者 间 存 在 不 少 联系 。 例 如 ，Fong and Holmes (2020) 证 
明了 边际 似 然 在 一 些 特定 情况 下 与 交叉 验证 等 价 。 但 是 这 二 者 中 哪 一 个 更 适合 实际 研究 以 
及 如 何 选择 它们 仍 有 许多 在 争议 。 
建 模 中 通常 有 M-Closed 和 M-Open 这 两 种 场景 。M-Closed 场景 假设 在 候选 模型 中 存在 
一 个 “真实 ”模型 ， 能 完美 地 描述 数据 的 生成 过 程 。M-Open 场景 假设 所 有 的 候选 模型 都 不 能 
完美 地 描述 数据 的 生成 过 程 。 在 M-Open 场景 下 ， 模 型 选择 的 目标 是 找到 一 个 在 所 有 候选 


模型 中 表现 最 好 的 模型 ， 而 不 是 寻找 真实 模型 (Burnham & Anderson, 2004; Gelman, Hwang, 


ANS 


[n 


et al., 2013). 

假如 在 M-Closed 场景 下 且 数 据 数量 接近 无 限 ， 此 时 边际 似 然 能 选择 出 “真实 模型。 而 
在 M-Open 场景 下 ， 交 叉 验 证 则 更 适合 ， 它 能 找 出 KL 散 度 距离 “真实 ”模型 最 小 的 模型 。 虽 
然 在 M-Closed 环境 下 ， 交 叉 验 证 也 能 找到 与 数据 KL 散 度 最 小 的 模型 ， 但 它 却 无 法 找 出 
“真实 ”模型 。 有 研究 表明 边际 似 然 和 交叉 验证 两 者 的 优势 是 无 法 被 结合 的 (Vrieze, 2012; 
Yang, 2005)。 

边际 似 然 的 支持 者 对 交叉 验证 的 反驳 主 要 集中 在 交叉 验证 无 法 找 出 “真实 ”模型 这 一 
点 上 。 例 如 ，Gronau and Wagenmakers (2019) 在 实验 中 使 用 Beta-Bernoulli 模型 生成 模拟 数 
据 ， 并 使 用 不 同 复杂 度 的 模型 拟 合 模拟 的 数据 ， 最 后 用 Loo-CV 和 基于 Loo-CV 计算 的 
Pesudo 贝 叶 斯 因子 对 各 个 模型 进行 评估 和 对 比 。 分 析 结 果 发 现 ， 除 Loo-CV 会 选择 复杂 度 
更 高 的 模型 而 非 产生 数据 的 真实 模型 的 固有 缺陷 外 ，Loo-CV 对 真实 模型 的 支持 会 随 着 数据 
的 增长 而 呈 倒 U 型 。 当 数据 增长 时 ，Loo-CV 对 真实 模型 的 支持 会 先 下 降 再 增长 。 因 此 


Gronua 和 Wagenmakers 认为 ， 当 研究 者 使 用 Loo-CV 时 应 该 格外 谨慎 。 


P 


Vehtari et al. (2019) /& Gronau and Wagenmakers (2019) 的 观点 ， 认 为 M-Closed 设置 只 
是 为 了 简化 建 模 问题 ， 实 际 应 用 中 很 少 出 现 M-Closed 环境 。 并 且 Vehtari et al. (2019) 认 为 
Gronau 和 Wagenmakers 错误 地 使 用 Loo-CV 去 计算 Pesudo 贝 叶 斯 因子 。 相 反 ， 如 果 使 用 堆 


登 的 方法 ， 将 各 个 模型 的 Loo-CV 作为 输入 值 ， 所 计算 的 模型 权重 可 以 很 好 地 在 M-Closed 
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环境 下 选择 出 最 优 模型 。 

另 一 方面 ， 交 叉 验 证 的 支持 者 们 则 认为 边际 似 然 尽管 拥有 很 多 优良 的 理论 特性 ， 但 是 
很 多 情况 其 实际 应 用 却 不 尽 如 人 意 。 原 因 在 于 ， 边 缘 似 然 并 不 是 对 模型 泛 化 能 力 的 衡量 ， 
而 是 在 给 定 了 先 验 分 布 和 模型 的 情况 下 ， 衡 量 模型 对 当前 数据 解释 的 能 力 。 即 使 一 个 模型 
使 用 了 合适 的 先 验 分 布 并 具有 更 好 的 边际 似 然 ， 其 在 样本 外 数据 上 的 泛 化 能 力也 不 一 定 比 
其 他 模型 更 强 (Lotfi et al., 2022)。 

此 外 ， 在 贝 叶 斯 推断 中 ， 选 择 合适 的 先 验 分 布 是 极为 困难 的 。 例 如 ，Gelman, Carlin, et 
al. (2013) 认 为 ， 在 边际 似 然 的 实际 应 用 中 ， 不 合适 的 有 信息 的 先 验 分 布 会 对 边际 似 然 造成 
极 大 的 影响 。 模 型 的 先 验 分 布 愈 是 无 信息 ， 边 际 似 然 的 模型 比较 愈 倾向 于 更 简单 的 模型 。 


而 与 边际 似 然 相 比 ，Loo-CV 则 不 会 受到 这 方面 的 影响 (Gelman, Carlin, et al., 2013)。 例 如 ， 


Kennedy et al. (2019) 通 过 对 气球 模拟 风险 任务 (Balloon Analog Risk Task, BART) 实 验 数据 建 
模 ， 测 试 了 不 同 先 验 分 布 对 贝 叶 斯 因子 的 影响 。 他 们 发 现 ， 随 着 先 验 分 布 无 信息 程度 的 增 
大 ， 贝 叶 斯 因子 会 逐渐 偏向 于 简单 的 模型 。 在 本 文 的 案例 中 也 是 如 此 ， 因 为 BIC 假设 了 无 
信息 的 先 验 分 布 ， 而 拉 普 拉 斯 近似 和 桥 采 样 均 使 用 了 实际 拟 合 模型 的 先 验 分 布 ， 所 以 BIC 
的 贝 叶 斯 因子 也 要 远 小 于 其 他 两 者 。 


6.2 模型 选择 指标 的 使 用 建议 


首先 ， 当 我 们 进行 模型 比较 时 应 当 注意 每 个 指标 所 适用 的 情况 。 各 个 模型 比较 指标 仅 
适用 于 与 建 模 数 据 一 致 的 场景 。 例 如 ， 基 于 反应 时 和 选项 数据 的 DDM 的 AIC 无 法 和 基于 
选项 数据 建 模 的 强化 学 习 模 型 的 AIC 进行 比较 (Fontanesi et al., 2019). 

其 次 ， 当 模型 比较 的 相对 指标 无 法 区 分 不 同 的 模型 时 ， 后 验 预 测 检测 也 可 以 作为 选择 
模型 的 方法 。 例 如 ，Steingroever et al. (2014) 发 现在 爱 荷 华 赌博 实验 里 ，BIC 等 指标 很 难 区 
分 不 同 模型 ， 而 后 验 预 测 检查 则 能 很 好 地 选择 出 最 优 模型 。 

例如 ，AIC 和 BIC 作为 最 常见 的 指标 ， 适 用 于 参数 估计 方法 为 点 估计 的 极 大 似 然 法 的 
模型 ， 然 而 如 何在 AIC、 和 BIC 之 间 进 行 选择 仍 有 争议。 

BIC 的 惩罚 项 惩罚 力度 更 大 ， 导 致 它们 通常 会 选择 简单 的 模型 。 因 此 ， 研 究 者 可 以 根 
据 自 己 研究 假设 的 效应 量 和 统计 功效 来 选择 这 些 指标 。 例 如 ，BIC 的 一 类 错误 和 二 类 错误 
都 会 随 着 样本 量 的 增 大 而 下 降 。 而 AIC 的 二 类 错误 会 随 着 样本 量 下 降 ， 但 其 一 类 错误 并 不 
会 。 并 且 AIC 的 二 类 错误 比 BIC 要 小 (Dziak et al., 2020)。 即 在 同等 样本 条 件 下 ，AIC 能 确 


认 样 本 外 预测 能 力 更 好 的 模型 为 最 优 模型 ， 但 同时 也 冒 着 一 类 错误 更 大 的 风险 。 而 BIC E 
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然 有 着 确认 真实 模型 的 能 力 ， 但 是 其 二 类 错误 ， 即 选 出 一 个 表现 较 差 的 模型 的 概率 也 更 高 。 


使 用 模型 复 现 (Model recovery) 的 方法 来 决定 究竟 使 用 何 种 指标 也 是 一 种 选择 (Wilson & 


Collins, 2019)。 例 如 ，Collins and Frank (2012) 使 用 更 复杂 的 模型 模拟 数据 ， 并 用 复杂 模型 


和 简单 模型 拟 


单 模型 ， 也 


合 该 数据 。 他 们 发 现 ， 当 使 用 BIC 作为 模型 比较 指标 时 ， 拟 合 结果 会 支持 简 
就 是 说 ，BIC 往往 过 于 惩罚 复杂 的 模型 ， 导 致 无 法 复 现 出 模拟 数据 背后 的 真实 


模型 ， 而 AIC 却 可 以 复 现 出 更 为 复杂 的 真实 模型 (Collins & Frank, 2018)。 最 后 ， 也 有 不 少 


研究 者 推荐 同时 汇报 AIC 和 BIC。 如 果 二 者 的 结果 一 致 ， 则 模型 比较 结果 也 更 为 可 靠 。 如 


果 二 者 相悖 ， 则 可 根据 不 同 的 原则 进行 分 门 别 类 的 讨论 (Farrell & Lewandowsky, 2018). 
除 此 之 外 ， 不 同 参 数 估 计 的 方法 也 会 限制 模型 比较 方法 的 使 用 。 对 于 使 用 贝 叶 斯 参数 


估计 的 模型 而 言 ， 


我 们 可 以 利用 MCMC 样本 计算 边际 似 然 或 者 Loo-CV 等 更 精确 的 近似 指 


标 。 而 如 果 使 用 了 点 估计 的 最 大 化 后 验 概率 法 ， 我 们 也 可 以 使 用 拉 普 拉 斯 近似 计算 边际 似 
然 。 在 有 信息 的 先 验 分 布 时 ， 边 际 似 然 表 现 会 优 于 WAIC 等 对 交叉 验证 的 近似 。Evans 


(2019) 使 用 


LBA 模型 对 比 了 不 同 信息 


程度 的 先 验 分 布 对 模型 比较 的 影响 ， 发 现 当 先 验 分 布 


是 无 信息 的 或 者 弱 信 息 的 时 ， 边 际 似 然 倾向 于 过 度 成 罚 复 杂 模 型 ， 导 致 结果 偏离 最 优选 择 ; 
而 当先 验 分 布 是 中 等 程度 的 信息 


WAIC; 而 当先 验 分 布 是 强 信息 


IK 


时 ， 边 际 似 然 的 结果 更 接近 于 最 优选 择 ， 并 且 要 优 于 


的 时 ， 边 际 似 然 又 会 倾向 于 选择 复杂 度 过 高 的 模型 。 因 此 ， 
当 我 们 对 模型 的 先 验 有 足够 的 认识 并 设置 有 信息 的 先 验 时 ， 边 际 似 然 可 能 是 更 好 的 选择 ; 


当 使 用 无 信息 先 验 ， 或 设置 有 信息 


的 先 验 但 并 不 确定 其 是 否 恰当 时 ， 对 先 验 不 敏感 的 


WAIC，DIC 和 Loo-CV 是 更 恰当 的 指标 。 


6.3 模型 比较 的 新 发 展 


传统 的 模型 比较 通 


型 的 不 确定 


常 要 选择 出 一 个 最 优 模型 ， 但 单一 的 模型 既 可 能 过 拟 合 ， 也 忽视 模 
性 。 研 究 者 提出 贝 叶 斯 模型 平均 的 思路 ， 即 同时 考虑 多 个 模型 影响 的 权重 ， 以 


增强 基于 模型 所 做 出 推断 的 鲁 棒 性 (Clyde et al., 2011; Hinne et al., 2020; Merlise & Edward, 


2004)。 例 如 ，Boehm et al. (2023) 在 使 用 模型 平均 探究 速度 -准确 性 权衡 对 DDM 参数 的 影响 


时 发 现 ， 使 用 贝 叶 
数 分 析 的 结果 更 加 准确 。 但 值得 注 


际 似 然 计算 


斯 模型 平均 能 减少 模型 过 拟 合 对 DDM 参数 估计 的 影响 ， 使 得 对 DDM 参 


意 的 是 ， 贝 叶 斯 模型 平均 受 限 于 边际 似 然 的 计算 ， 在 边 


代 后 验 模型 概率 。 此 外 ， 结 合 堆 芝 


型 概率 (Yao et al., 2018)。 


困难 的 情况 下 ， 难 以 计算 后 验 模型 概率 。 一 种 可 行 的 方法 是 使 用 赤 池 权重 来 蔡 


全 方法 和 PSIS-Loo-CV 的 模型 权重 也 可 以 用 于 替代 后 验 模 
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使 用 模型 比较 指标 的 常见 方式 是 比较 指标 值 在 所 有 被 试 上 的 和 或 者 平均 值 的 。 然 而 这 
种 做 法 忽视 被 试 之 间 的 差异 ， 也 忽视 了 极端 值 对 模型 比较 的 产生 的 可 能 影响 。 源 于 


DCM(Dynamic causal modelling) 中 模型 比较 的 贝 叶 斯 模型 选择 (Random effect Bayseian model 


selection, RE-BMS)(Stephan et al., 2009) 能 有 效 地 减少 极端 值 的 影响 ， 在 认 知 建 模 中 也 取得 广 
泛 的 应 用 。RE-BMS 利用 贝 叶 斯 分 层 模 型 来 考虑 被 试 的 差异 ， 使 用 了 多 项 式 分 布 和 狄 利克 
雷 分 布 以 避免 数据 点 非 对 称 分 布 形 态 的 影响 。 此 外 ，RE-BMS 引入 超出 概率 (Protected 
exceedence probability, PXP)， 代 表 在 当前 样本 数据 下 ， 某 一 模型 的 边际 似 然 大 于 等 于 其 余 
模型 并 可 以 作为 生产 当前 数据 的 “真实 模型 ”的 概率 ， 即 PXP = p(mw，, = ru, |y)- PXP 
大 于 0.95 就 可 以 像 传统 的 假设 检验 一 样 认为 该 模型 要 显著 地 优 于 其 余 模 型 (Iglesias et al., 
2013)。 值 得 注意 的 是 ，Matlab 中 的 工具 包 SPM. VBA 和 R 中 的 bmsR 包 均 可 实现 PXP 的 
计算 (Daunizeau et al., 2014)， 使 其 在 认 知 建 模 得 到 广泛 应 用 。 此 外 ， 当 我 们 使 用 AIC、BIC 
等 信息 准则 指标 作为 RE-BMS 的 输入 时 ， 需 将 这 些 指标 除 以 -2 来 保证 结果 的 正确 。 
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